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摘 要 : [目的 /意义 ] 快速 准确 地 从 突 发 网 络 和 与 情 文本 中 识别 事件 。[ 方 法 /过 程 ] 提出 一 种 融合 句法 特征 和 向 法 相似 

度 的 网 络 与 情 突 发 事件 识别 方法 。 结 合 句 法 特征 提出 面向 事件 的 句法 特征 提取 方法 ,利用 事件 语义 标注 和 句法 

特征 提取 方法 构造 事件 句法 特征 库 , 通 过 计算 待 测 文本 与 句法 库 的 句法 相似 度 来 识别 网 络 和 与 情 突 发 事件 。[ 结 

果 / 结 论 ] 以 新 型 冠状 病毒 肺炎 疫情 为 例 , 所 提出 网 络 与 情 突 发 事件 识别 方法 在 该 与 情 下 的 最 优 相似 度 为 0.93 ,在 

TF 此 相似 度 下 从 一 段 新 的 文本 中 识别 出 160 个 事件 和 30 个 非 事 件 ,Fl 值 达到 了 0.848。 通 过 方法 测评 证 明 网 络 与 
> 情 突 发 事件 识别 方法 在 利用 句法 相似 度 识别 事件 和 进行 相同 相 邻 词性 合并 等 方面 创新 的 有 效 性 。 


i 网 络 与 情 ”事件 识别 ”向 法 特征 ”句法 相似 度 
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号 中 国 互联 网 络 信息 中 心 (CNNIC) 发 布 的 第 44 次 
《全 和 外 互联 网 络 发 展 状 况 统计 报告 ) 显 示 ' ,截至 2019 
年 他 月 ,我 国 网 民 规 模 达 8. 54 亿 , 互联 网 普及 率 达 
6 了 Bg% , 较 2018 年 底 提 升 1.6 个 百分点 。 网 络 的 普及 
与 铺 民 化 使 得 公众 对 与 情事 件 的 关注 和 回应 更 为 便 
捷 扬 产生 的 网 络 与 情 内 容 更 为 丰富 。 在 此 背景 下 , 快 
速 雅 确 地 从 网 络 与 情 突 发 事件 文本 中 识别 能 反映 公 
众 态度 .与 论 走向 的 事件 ,并 为 政府 实施 引导 策略 提供 
针对 性 的 参考 意见 ,成 为 网 络 与 情 研究 领域 的 一 项 重 
大 挑战 。 

网 络 与 情 突 发 事件 是 指 能 反映 公众 对 网 络 突 发 社 
会 问题 不 同 看 法 的 事件 。 事 件 具 备 抽象 性 、 广 义 性 和 
语义 完备 性 等 特点 ,其 表示 形式 为 事件 三 元 组 = (S， 
P,0) ,其 中 P 是 触发 词 ,S 是 施 事 者 ,0 是 受 事 者 中 。 
一 个 完整 的 事件 必须 要 包含 触发 词 ,触发 词 决定 了 事 
件 的 类 型 , 施 事 者 和 受 事 者 可 以 部 分 忽略 ,例如 “台风 
登陆 (S,P) “看 电影 (P,0) “贵州 凉山 爆发 山 火 (S， 
P,0) "都 可 以 称 之 为 事件 。 


网 络 舆 情 突 发 事件 识别 任务 主要 研究 从 非 结构 化 
的 社交 媒体 数据 中 识别 包含 事件 元 素 的 结构 化 事件 文 
本 。 从 2005 年 起 ,事件 抽取 被 纳入 ACE 评测 会 议 ” ， 
事件 识别 是 事件 抽取 任务 的 重要 组 成 部 分 。 事 件 抽取 
可 分 为 主题 事件 抽取 和 元 事件 抽取 。 主 题 事件 是 指 与 
某 个 主题 相关 的 一 组 事件 , 它 由 一 个 核心 事件 和 所 有 
与 之 直接 相关 的 事件 或 活动 组 成 ;元 事件 主要 描述 
了 参与 动作 事件 的 主要 成 分 结构 ,其 通常 使 用 动 名 词 
表示 动作 的 发 生 或 状态 的 改变 。 中 文 事件 识别 技术 在 
内 外 学 者 的 研究 下 也 取得 了 长 足 的 进步 中 。 相 较 于 
英文 清晰 的 语句 结构 ,中 文 词语 之 间 的 排列 组 合 更 加 
的 复杂 和 灵活 , 且 词 语 存 在 较 多 的 一 词 多 义 现象 ,事件 
的 含义 也 需要 结合 上 下 文 语义 进行 辨别 ,这 给 中 文 事 
件 识 别 技术 带 来 了 一 定 的 困难 ,如 何 降低 中 文 文本 维 
度 以 及 词语 之 间 的 语义 关联 成 为 中 文 事件 识别 的 一 大 
考验 。 

为 探究 适用 于 中 文 环 境 下 的 网 络 与 情 突 发 事件 识 
别 方法 ,笔者 提出 一 种 融合 句法 特征 和 句法 相似 度 的 
网 络 熏 情 突 发 事件 识别 模型 ,以 新 型 冠状 病毒 肺炎 疫 
情 为 例 , 构 造 网 络 自 情 事件 句法 特征 库 , 利 用 语句 之 间 


加 


作者 简介 : 陈 健 瑶 (ORCID :0000 - 0003 - 1890 -7404 ) ,硕士 研究 生 , 了 上 -mail:1041403539 @dqdq. com; 恰 姗 姗 (ORCID: 0000 - 0002 - 2787 - 
0183 ) ,副教授 ,博士 ; 夏 立 新 (ORCID :0000 -0002 -4162 -2282 ) ,教授 ,博士 ,博士 生 导师 ; 刘 德 印 (ORCID :0000 - 0002 -1769 -3160 ) ,硕士 研 


收 稿 日 期 :2020 -12 -09 修 回 日 期 :2021 -02 -23 本 文 起 止 页 码 :41 -50 本 文责 任 编辑 : 徐 健 


41 


团 定 情报 三 作 


第 65 卷 第 9 期 2021 年 5 月 


ChinaXiv 合 作 期 刊 


的 句法 相似 度 去 识别 网 络 与 情 中 新 的 事件 。 
2 相关 研究 


不 同 领域 的 研究 人 员 对 于 事件 有 着 不 同 的 定义 。 
事理 图 谱 研究 人 员 将 事件 定义 为 抽象 .广义 和 具备 完 
整 语义 的 事件 三 元 组 ” ;语言 学 领域 认为 事件 是 由 谓 
语 动词 及 动作 发 生 时 间 ,情况 所 构成 的 术语 ” ; 自动 内 


容 抽 取 (automatic content extraction ，ACE ) 评测 会 议 认 


性 ,用 于 识别 突 发 事件 ,为 预测 事件 发 展 提供 数据 支 
持 ; 武 澎 55 等 运用 博弈 分 析 得 出 微 博 中 突 发 事件 信息 
发 布 者 被 关注 的 概率 模型 ,为 网 络 和 与 情 突 发 事件 信息 
传递 关键 节点 的 确立 奠定 了 基础 ; 刘 雅 妹 等 "利用 
LDA 方法 对 网 络 擂 情 突 发 事件 评论 数据 进行 话题 划分 
并 构建 事件 演化 话题 图 谱 , 用 以 动态 追踪 民意 了 解 网 
络 与 情 突 发 事件 发 展 方向 ; 兰 月 新 ""” “通过 建立 衍生 
舆情 监测 预警 模型 和 突 发 事件 网 络 僵 情 信 息 传播 规律 


为 事件 是 发 生 在 某 个 特定 的 时 间 点 或 时 间 段 . 某 个 特 
定 的 地 域 范围 内 ,由 一 个 或 者 多 个 角色 参与 的 一 个 或 
者 多 个 动作 组 成 的 事情 或 者 状态 的 改变 。 在 上 述 对 
于 事件 的 定义 中 ,事理 图 谱 研究 人 员 所 给 定 的 事件 定 
义 因 其 结构 化 的 特点 较为 贴 合 本 研究 的 网 络 与 情 突 发 
事件 ,因此 采用 此 定义 。 
锭 事件 识别 方法 相关 研究 
一 事件 识别 方法 主要 有 两 种 :基于 模式 匹配 的 方法 
各 四 于 机 器 学 习 的 方法 。 基 于 模式 匹配 的 方法 , 即 在 
要 模式 的 指导 下 进行 事件 的 识别 和 抽取 。 模 式 主要 
用 手指 明 构成 目标 信息 的 上 下 文 约束 环境 ,集中 体现 
了 到 域 知识 和 语言 知识 的 融合 “"。 其 方法 可 分 为 规则 
认同 的 扩展 和 关系 方向 的 限制 ,前 者 倾向 于 宏观 层面 
的 转 展 触发 词 表 规模 ,完善 知识 库 构建 等 ;后 者 倾向 于 
微 况 层面 的 文本 信息 单元 融合 .语义 一致 性 推理 .语义 
约 更 等 。 目 前 有 学 者 利用 模式 匹配 进行 战争 事件 抽 
着 。 基 于 机 器 学 习 的 方法 , 即 运用 统计 模型 进行 事 
件 议 识别 和 抽取 。 该 方法 在 近 几 年 较为 主流 。 常 用 的 
学 导 方 法 有 条 件 随机 场 模型 、 隐 马尔 科 夫 模型 、 
去 挝 向 量 机 模型 "中 等 。 痪 瑞 芳 等 "将 事件 抽取 看 作 
序列 标注 任务 ,构建 了 基于 CRF 多 任务 学 习 的 中 文 事 
件 抽取 联合 模型 ,针对 仅 基 于 CRF 的 事件 抽取 联合 模 
型 的 缺陷 进行 了 扩展 ; 刘 忠 宝 等 ”基于 BERT 模型 和 
LSTM-CRF 模型 对 历史 事件 及 其 组 成 元 素 进行 抽取 。 

综 上 可 以 看 出 ,关于 事件 识别 方法 的 研究 已 取得 
了 较 大 的 进展 ,能 够 从 文本 中 精准 的 识别 出 事件 ,但 是 
这 些 方法 大 多 数 依赖 于 规模 较 大 、 范 围 较 全 的 训练 集 ， 
从 而 需要 构建 知识 库 进 行事 件 识别 ,这 类 方法 应 用 于 
网 络 与 情 突 发 事件 领域 就 会 面临 网 络 与 情 初期 训练 集 
语 料 不 足 的 情况 ,因此 本 研究 旨 在 当前 事件 识别 方法 
研究 的 基础 上 提出 一 个 能 够 适用 于 网 络 与 情 领域 的 突 
发 事件 识别 方法 。 
2.2 网络 与 情 突 发 事件 识别 研究 现状 

尉 永 清 "" 等 在 研究 突 发 事件 网 络 与 情 传播 规律 
的 基础 上 ,研究 事件 特征 抽取 方法 和 情感 特征 的 突 发 


模型 ,为 政府 实现 网 络 与 情 管理 和 网 络 与 情 预 警 研究 
提供 参考 ; 张 玉 亮 .” 把 突 发 事件 网 络 僵 情 划分 为 生成 
期 .扩散 期 衰退 平复 期 3 个 阶段 ,为 政府 及 其 相关 部 
门 有 效 评 佑 突 发 事件 的 现实 状况 ,把握 突 发 事件 网 络 
时 情 发 展 态势 提供 比较 有 效 的 理论 支持 和 借鉴 ; 陈 思 
六 等 所 :利用 用 户 行为 特征 、 网 络 全 局 信息 以 及 影响 力 
衰退 机 制 的 关键 节点 动态 识别 方法 ,识别 突 发 事件 信 
息 传播 在 不 同 阶 段 中 的 关键 节点 及 其 演化 特征 ;李纲 
等 "利用 主题 模型 (LDA ) 与 互信 息 最 大 人 模 型 ( Ma- 
RxE nt-MI) 提取 事件 摘要 关键 词 ,进而 生成 事件 摘要 ; 
夏 立 新 等 ”从 可 视 化 视角 出 发 ,从 多 个 维特 构造 网 络 
舆情 事件 特征 ,形成 可 视 化 事件 摘要 。 

可 以 看 出 ,当前 已 有 学 者 在 网 络 与 情 领 域 进行 事 
件 识 别 和 应 用 研究 ,但 是 大 多 数学 者 的 研究 重点 在 事 
件 传 播 和 奥 情 发 展 等 方面 ,并 未 提出 一 种 能 够 适用 于 
网 络 熏 情 领 域 的 突 发 事件 识别 方法 ,因此 ,笔者 将 在 当 
前 网 络 奥 情 领 域 事 件 识别 和 应 用 的 研究 基础 上 ,提出 
一 种 网 络 奥 情 通用 的 突 发 事件 识别 方法 ,为 后 续 研 究 
人 员 基 于 事件 研究 网 络 幅 情 提供 参考 。 

2.3 句法 分 析 相 关 研 究 

句法 分 析 的 研究 大 体 分 为 基于 规则 的 方法 和 基于 
统计 的 方法 ,前 者 以 语言 学 理论 为 基础 ,后 者 以 某 种 方 
式 对 语法 规则 和 语言 形式 进行 描述 ” 。 圳 里 驰 '” 建 
立 了 一 种 基于 依存 关系 的 句法 分 析 统 计 模型 ,将 句法 
分 析 模 型 与 分 词 .词性 标注 模型 相 结合 ,取得 了 良好 的 
实验 效果 ; 郭 喜 路 后 等 将 句法 特征 .语义 特征 融入 依 
存 句 法 关系 .核心 谓词 .语义 角色 标注 等 特征 进行 实体 
关系 抽取 ,实验 结果 表明 了 融入 句法 特征 后 方法 的 有 
效 性 ; 徐 飞 等 2 利用 BiLSTM-CRF 模型 对 食品 事件 进 
行 词性 标注 ,取得 了 较 好 的 试验 结果 ; 胡 宝 顺 ” 等 提 
出 一 种 新 的 基于 句法 结构 特征 分 析 及 分 类 技术 的 答案 
提取 算法 ,实验 结果 证 明基 于 句法 结构 特征 的 方法 性 
能 优 于 目前 典型 的 算法 ; 陈 永 波 忆 等 提出 简单 边 优先 
与 SVM 相 结合 的 依存 句法 分 析 算 法 ,实验 结果 证 明 对 
于 复杂 名 词 短 语 的 依存 句法 分 析 ,算法 准确 率 比 简单 
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边 优 先 算法 有 明显 提高 。 

学 者 们 对 于 句法 分 析 的 研究 与 应 用 证 明了 句法 在 
表达 文本 特征 方面 的 有 效 性 ,基于 此 ,笔者 认为 能 表达 
特定 事件 的 中 文 文本 存在 着 一 定 的 句法 模式 ,在 网 络 
与 情 初期 训练 集 语 料 不 足 的 情况 下 ,句法 特征 能 够 代 
替 文本 特征 进行 事件 识别 。 使 用 事件 句法 来 识别 事 
件 , 能 有 效 降低 中 文 文本 的 维度 ,大 大 降低 了 事件 识别 
的 工作 量 和 复杂 程度 ,同时 ,该 方法 可 以 降低 对 特定 与 


进而 导致 误差 ,为 减少 这 种 误差 ,笔者 拟 采 用 人 工 检 查 
的 方式 将 这 些 冲突 的 句法 模式 识别 出 来 ,人 工 通过 事 
件 语义 关系 识别 错误 句法 ,并 形成 错误 句法 模式 词典 ， 
此 词典 放置 于 后 续 网 络 与 情 突 发 事件 识别 模型 中 , 当 
识别 出 待 测 句法 存在 于 错误 句法 模式 词典 中 时 ,说 明 
该 句法 为 错误 句法 ,直接 判定 为 非 事件 。 人 工 检查 错 
误 句 法 模式 的 工作 量 在 初期 工作 量 与 事件 标注 工作 量 
相同 ,但 随 着 错误 句法 模式 词典 规模 变 大 ,产生 语义 冲 


t= 


情 领 域 词典 的 依赖 ,使 事件 识别 方法 得 到 更 广泛 的 应 
用 。 


3 ”基于 句法 特征 提取 的 句法 相似 度 度量 


基于 句法 特征 提取 的 句法 相似 度 度量 主要 分 为 两 
全 竹 模 块 :D 面 向 事件 识别 的 语句 句法 特征 提取 ,事件 
名 洋 包 含 了 事件 框架 下 的 事件 语义 逻辑 ;@ 基 于 句法 
特征 的 事件 句法 相似 度 计算 方法 。 两 个 事件 句法 相似 
大 是 高 ,说 明 两 个 事件 在 句法 语义 结构 层面 越 相似 。 
3 人 后 面向 事件 识别 的 语句 句法 特征 提取 

< 村 利用 分 词 工具 对 事件 文本 进行 分 词 和 词性 标注 ， 
以 作 语 名 “土耳其 再 次 向 一 核 大 国 开火 "为 例 ,对 其 
进 簿 分 词 和 词性 标注 后 得 到 文本 向 量 : 

OE = [ "土耳其 ":n， "再 次 ":4，" 疝 ":p，" 一 ":m， 
" 贸 关 国 ":n， "开火 ":] 

过 对 文本 向 量 下 进行 句法 特征 提取 后 得 到 句法 特征 


六 / 
Ey 


CC P=[n,d,pmnv] 


:三 通过 语句 句法 特征 提取 ,事件 的 表征 方式 由 文本 
向 故 忆 转换 为 句法 特征 向 量 P, 这 就 使 得 事件 识别 的 
维度 从 文本 特征 转换 到 句法 特征 。 但 这 也 存在 一 个 问 
题 , 词 性 的 种 类 远 远 小 于 词语 的 种 类 ,许多 不 同 的 词语 
会 具有 相同 的 词性 ,造成 了 句法 特征 向 量 宛 余 ,同时 因 
不 同 口语 化 的 表达 方式 ,同一 事件 可 能 使 用 多 种 语言 
表达 方式 ,为 降低 这 种 元 余 和 句法 特征 的 复杂 性 ,笔者 
以 * 相 邻 相同 词性 合并 ”的 方式 来 降低 相同 事件 的 名 
法 种 类 和 向 量 维度 ,例如 ,对 于 句法 : 
P=[n,n,d,p,m,m,n,v] 
将 其 简化 为 ; 
P=[n,d,p,m,n,v] 
合并 相同 词性 的 目的 在 于 对 句法 种 类 进行 泛 化 ， 
即 默认 相同 词性 的 相 邻 词语 表达 的 语义 特征 相同 ,使 
模型 即使 在 缺少 大 量 文本 训练 集 的 情况 下 ,也 能 发 挥 


突 的 句法 会 越 来 越 少 ,相应 工作 量 也 会 越 来 越 少 。 相 
较 其 他 减少 误差 的 方法 ,人 工 检查 因 其 便捷 可 控 的 特 
点 更 为 适合 句法 特征 提取 。 事 件 句 法 模式 提取 的 具体 
过 程 如 算法 1 所 示 : 

算法 1 :语句 句法 特征 提取 

输入 : sentences[0..n -1]: 包 含 n 条 待 处 理 语句 (sentence) 的 
数组 ;fl (sentence) :对 文本 进行 分 词 的 函数 ;全 (word) :对 语词 进行 
词性 标注 的 函数 ,9 ( pattem ) :对 已 提取 句法 进行 相 邻 相同 词性 合 
并 ; 


输出 :pattems 事件 句法 集 


1: function Pattern ( sentences[0. .n -1]: array of sentence; fl : 


function; 亿 : function; 1f3: function ) : patterns ; 
2: Var 
: words[0..m-1]: 包 含 m 
: ”nominal :词性 标注 序列 ; 


个 词 的 数组 ; 


3 

4 

5 : begin 

6: foric0ton-ldo 
到 pattern <— null 

8 words[0..m-1|] fl (sentences[i|) 
9 


forio0tom-1 do 


10 : nominal <— f2 (words[ i] ) 

11: pattern <— pattern + nominal 
12 : pattern «—f3 ( pattern ) 

13 : if pattern not in patterns then 
14 : patterns +— patterns + pattern 
15 : end if 


16: _ return patterns 


17: end 
3.2 基于 句法 特征 的 事件 句法 相似 度 计 算 方 法 

文本 余弦 相似 度 是 一 种 常用 的 文本 相似 度 度 量 标 
准 ,传统 的 文本 向 量 余弦 相似 度 能 够 表达 两 个 文本 文 
档 之 间 的 相似 度 , 通 过 词 向 量 间 距 来 判断 两 个 文档 的 
亲 踊 关系 。 笔 者 对 文本 余弦 相似 度 进行 一 定 的 修改 并 
将 其 应 用 于 事件 句法 相似 度 计算 ,句法 特征 向 量 相似 
度 能 够 从 语义 层面 表达 两 个 事件 在 句法 逻辑 方面 的 相 
似 性 。 将 待 识别 事件 句法 已 = [x ,x,,…,%; | 与 事件 


出 最 大 优势 。 同 时 ,由 于 存在 “一 词 多 义 "一 义 多 词 ” 
等 现象 ,部 分 经 分 词 工具 标注 后 的 句法 存在 语义 冲突 


名 法 库 中 的 句法 P, =[ ,7 ，…y] 进 行 相似 度 计算 ， 
取 最 大 的 相似 度 为 最 终 相 似 度 ,如 最 终 相 似 度 为 
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100% , 则 说 明 该 句法 已 存在 于 事件 句法 库 中 ,该 文本 
是 一 个 事件 文本 。 此 外 ,事件 文本 必须 包含 触发 词 r， 
不 包含 触发 词 的 文本 直接 判定 为 非 事 件 文本 ,综合 各 
方面 考虑 ,本 模型 最 终 的 相似 度 计算 方法 如 公式 1 所 
不 : 


a, 
cos(0) = yd 8 2 好，G 存在 
0,o 不 存在 


公式 (1) 
事件 句法 相似 度 计算 算法 如 算法 2 所 示 : 
算法 2: 事 件 句 法 相似 度 计算 
输入 : pattems[0..n -1] :包含 n 条 事件 句法 特征 (pattem) 的 数 
组 ;sentence: 待 测 文本 的 语句 句法 ; 生 (sentence) :输入 句法 中 含有 触 
发 通 g ,返回 1, 否 则 返回 0; 亿 (pattemn,sentence) :计算 两 个 事件 句法 
的 你 弦 相 似 度 ; 
人 和 葵 出 :cos 事件 句法 相似 度 


| 


: function Cos( patterns[ 0..n - 1 ] :array of pattem; sentences: 
be tested; 位: function; 亿 : function) : cos; 
©. var 
5 5: 触发 词 识别 变量 ; 
: cos: 句 法 相似 度 ; 


: temp :临时 变量 ; 


=0: begin 

: for ic-0ton-1ldo 
pattern <— patterns[ i] 
o fl (sentence) 


temp +— {2 (pattern ,sentence ) 


¢ temp * 一 temp * CO 
”了 if temp > cos then 
3 cos 人 一 temp 

4 : end 让 


15 : return cos 


16: end 
4 融合 句法 特征 和 句法 相似 度 的 网 络 与 
情 突 发 事件 识别 方法 


4.1 句法 特征 和 句法 相似 度 在 事件 识别 方面 的 优势 
分 析 


国内 外 学 者 的 研究 已 经 证 明 ,融入 句法 分 析 或 名 
法 特征 的 句法 分 析 统 计 模型 ”中文 实 体 关 系 抽 
取 ” ,答案 提取 算法 ” .中文 复杂 名 词 短 语 分 析 等 
都 取得 了 良好 的 实验 结果 ,语句 的 句法 特征 从 语义 层 
面 对 文本 的 语法 规则 和 语言 形式 进行 描述 ” ,句法 特 
征 能 够 表达 语句 的 语义 特征 。 不 同 于 传统 的 文本 特 
征 ,句法 特征 描述 了 句子 中 的 依存 结构 ,短语 结构 以 及 


功能 ,使 得 事件 识别 模型 在 事件 识别 的 过 程 中 更 加 关 
注 事件 语词 之 间 的 语义 逻辑 和 依存 关系 ,这 对 于 提升 
事件 识别 模型 的 查 全 率 和 查 准 率 有 着 很 大 的 帮助 。 事 
件 本 身 存 在 一 定 的 语义 逻辑 和 句法 结构 ,使 用 句法 特 
征 表达 事件 存在 着 先天 的 优势 ,使 用 句法 特征 能 够 使 
得 事件 识别 的 重心 从 文本 内 容 转 移 到 语义 逻辑 ,从 而 
避 开 中 文 文本 的 种 类 和 数量 规模 ,以 到 达 识 别 事件 的 
目的 。 
4.2 网络 熏 情 突 发 事件 识别 方法 整体 设计 思路 

笔者 构建 了 如 图 1 所 示 的 网 络 与 情 突 发 事件 识别 
模型 ,模型 分 为 两 个 部 分 :中 事件 句法 特征 库 构 造 , 首 
先 通过 网 络 爬 虫 获 取 社 交 媒 体 上 相关 僵 情 语 料 训练 集 
文档 7D = ( 7D ,7D,,…,7D,) ,然后 人 工 标注 出 文档 
7D, 的 事件 集 瑟 = | ,Ek,,… ,ElE,e 7D,| ,接着 通过 
句法 特征 抽取 方法 得 到 事件 集 E 对 应 的 句法 P= | < 
:Pi >,<B:P, >， < 瑟 :P> 上, 按 此 方法 从 与 情 
语 料 训练 集 文档 中 获取 所 有 事件 句法 ,在 经 过 去 重 、 人 
工 修正 等 操作 后 ,形成 与 情 语 料 的 事件 句法 特征 库 ; 
@ 待 测 文本 事件 识别 ,首先 对 待 识别 文档 D = (DD, ,D,， 
…,D,) 进行 分 句 操 作 , 将 文档 D; 切割 为 由 语句 所 包含 
的 语句 集合 S = |S,,S,,…,S,15, e D,| ,接着 通过 句法 
寺 征 提取 得 到 文档 D; 的 句法 特征 集合 已 = | < 5,:P， 
> ,<5,:P, > ,…,<5,:P) >|,P, 作为 待 识别 文本 句 
法 进入 到 模型 中 与 奥 情 事件 句法 库 中 现 有 事件 句法 进 
行 相似 度 计算 ,相似 度 大 于 或 等 于 模型 相似 度 国 值 的 
待 测 文 本 即 为 事件 文本 。 
4.3 ”网 络 鼻 情 突 发 事件 识别 方法 的 实现 
4.3.1 网 络 鼻 情 突 发 事件 的 语义 标注 

对 网 络 与 情 突 发 事件 进行 语义 标注 的 目的 是 对 由 
情 文本 进行 事件 标注 从 而 获得 一 定 规 模 的 已 知事 件 ， 
为 后 续 进 行事 件 句 法 特征 库 的 构造 打下 基础 。 笔 者 在 
进行 事件 语义 标注 时 除 保留 事件 三 元 组 包含 的 主 谓 宾 
相关 实体 ,其 他 实体 信息 诸如 地 点 实体 、 时 间 实 体 、 事 
件 实体 等 实体 信息 也 同样 保留 ,这 样 使 得 获得 的 事件 
句法 模式 更 加 完整 ,也 提升 后 续 利用 句法 模式 所 识别 
新 事件 的 准确 性 。 

对 于 事件 语义 标注 ,笔者 定义 了 以 下 几 条 标注 原 


hu 


则 : 


原则 一 :所 标注 的 事件 文本 必须 能 够 从 中 推导 出 
F 的 发 生 。 

原则 二 :在 满足 原则 一 的 情况 下 ,所 推导 出 的 事件 
必须 是 真实 发 生 过 或 正在 发 生 的 事件 ,例如 事件 文本 
中 包含 否定 词语 、 未 来 发 生词 语 、 可 能 发 生词 语 \ 个 体 


jn 
3 
个 
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融合 句法 特征 的 网 络 与 情事 件 识别 方法 


事件 句法 特征 库 


待 识别 文档 句法 特征 提取 


分 类 


结果 待 识别 句法 


待 识别 
文档 也 


图 1 网 络 和 与 情 


主观 推测 发 生词 语 时 ,不 算 作 事 件 。 

原则 三 :在 满足 原则 一 的 情况 下 ,事件 文本 中 的 时 
间 实体 和 地 点 实体 属于 事件 的 一 部 分 ,应 当 被 标注 。 
二 原则 四 :在 满足 原则 一 的 情况 下 ,一 个 事件 可 作为 
中 2 个 事件 的 施 事 者 或 者 受 事 者 , 即 事件 本 身 也 可 以 
人 为 一 个 实体 。 


1 基于 网 络 熏 情 突 发 事件 识别 模型 的 事件 识别 


7 


加 以 4.2 所 提出 的 网 络 与 情 突 发 事件 识别 模型 为 术 
1 对 特定 入 页 域 网 络 与 情 突 发 事件 进行 事件 识别 。 事 
合法 特征 库 在 事件 识别 方法 中 承担 着 事件 句法 训练 
集 的 作用 ,因此 构造 完备 的 事件 句法 特征 库 是 首要 任 
务 5 硅 完成 事件 句法 特征 库 的 构造 后 ,对 待 测 文本 进行 
和 天 并 进行 事件 识别 。 

CG(1 ) 事 件 句法 特征 库 构造 。 事 件 句法 特征 库 构造 
分 中 两 个 子 模块 :四 网 络 与 情 语 料 采集 和 语义 标注 。 
通 王 自主 编写 python 让 虫 获取 相关 领域 网 络 奥 情 突 发 
事 癸 语 料 , 在 对 数据 进行 一 定 的 清洗 之 后 ,通过 4.3.1 
所 提出 的 网 络 微 情 突 发 事件 语义 标注 对 所 采集 的 语 料 
信息 进行 事件 标注 形成 与 情事 件 语料库 。@@ 语 句 词性 
标注 和 句法 特征 提取 。 利 用 jieba 分 词 工具 对 事件 语 
料 库 中 的 事件 文本 依次 进行 分 词 和 词性 标注 ,之 后 通 
过 3.1 节 所 提出 的 面向 事件 识别 的 语句 句法 特征 提取 
方法 对 事件 进行 句法 特征 提取 ,所 获取 句法 进入 到 事 
件 句 法 特征 库 。 为 避免 产生 重复 句法 特征 ,需要 对 新 
入 库 的 句法 特征 进行 重复 判断 , 若 句法 重复 , 则 不 进行 
入 库 处 理 , 并 同时 采用 错误 模式 纠 查 反馈 机 制 , 利 用 人 
工 方式 减少 错误 句法 的 产生 。 事 件 句法 特征 库 构 造 具 
体 流程 见 图 2。 其 中 ,为 保证 分 词 和 词性 标注 的 准确 
性 , 除 利用 jieba 分 词 词典 外 ,还 将 结合 具体 的 网 络 与 
情 突 发 事件 定义 该 领域 的 自 定义 词典 ,例如 在 “台风 利 
奇 马 ”事件 中 ,“ 利 奇 马 ”一 词 本 意 为 越南 的 一 种 水 果 ， 


mm 


突 发 事件 识别 模型 


通过 词典 定义 “台风 利 奇 马 ” 是 词性 为 “名 词 (n)” 的 一 
个 词语 ,使 得 在 分 词 的 过 程 中 ,该 词语 不 会 被 拆 分 且 词 
性 正确 。 


oo 


EE G= 
Sx Sx 


”ee 


- 语 料 采 集 
/7 全 交 ! 分 词 器 

> 数据 清 济 停 用 词 表 

Python 疏 自 定 义 词 典 
词性 列表 

信介 件 语 义 | + 

标注 | 条 法 特征 
提取 


网 络 与 情 语 料 采集 和 事件 标注 语句 闻 性 标注 和 句法 特征 提取 


图 2 事件 句法 特征 库 构 造 流 程 


(2) 待 测 文 本 分 句 与 事件 识别 。 对 待 测 事件 文本 
进行 分 句 的 主要 困难 在 于 不 清楚 待 测 与 情 语 料 中 包含 
有 件 文本 的 位 置 ,由 于 事先 不 清楚 文本 中 的 事件 结构 ， 
和 件 的 位 置 可 能 存在 半 句 话 或 一 句 话 中 ,事件 本 身 也 
可 以 成 为 男 一 个 事件 的 一 部 分 元 素 。 对 此 ,笔者 采用 
的 方法 是 对 一 段 待 测 文 本 进行 重复 分 句 , 例 如 对 待 测 
文本 “美国 再 次 调查 中 兴 通 讯 , 使 其 股价 应 声 大 跌 ” 可 
以 将 其 分 句 为 “美国 再 次 调查 中 兴 通 讯 ”“ 使 其 股价 应 
声 大 跌 ”“ 美 国 再 次 调查 中 兴 通 讯 ,使 其 股价 应 声 大 
跌 ” 三 段 文 本 。 对 一 段 文 本 重复 分 句 可 以 识别 出 其 中 
所 包含 的 所 有 事件 ,避免 产生 遗漏 。 

文档 D; 包含 大 量 网 络 与 情 突 发 事件 ,首先 对 其 进 
行 分 句 操作 ,通过 3.1 节 所 提出 的 面向 事件 识别 的 语 
名 句法 特征 提取 方法 对 等 测 文本 进行 句法 特征 提取 ， 
ee ns 
P, > ,…,<5,:P;>|,P, 进入 到 模型 中 与 事件 句法 特 
mad es 
情 类 别 不 同 , 每 一 个 特定 类 别 的 网 络 与 情事 件 识别 模 
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型 都 对 应 着 一 个 特定 的 相似 度 靖 值 a, 最 终 句法 相似 
度 大 于 或 等 于 相似 度 浆 值 a 即 为 事件 。 使 得 模型 的 
Fl 值 最 优 的 句法 相似 度 即 为 相似 度 阐 值 ,Fl 值 计算 
方式 如 公式 2 所 示 : 


2PR 
P+R 


5 ”网络 熏 情 突 发 事件 识别 实证 分 析 一 一 
以 新 型 冠状 病毒 肺炎 疫情 为 例 


以 新 型 冠状 病毒 肺炎 疫情 为 例 ,验证 笔者 所 提出 
的 融合 句法 特征 和 句法 相似 度 的 网 络 熏 情 突 发 事件 识 
别 方法 的 有 效 性 。 
5.1 语 料 采集 与 事件 标注 
二 通过 自主 编写 python 爬虫 以 关键 词 新 型 冠状 病 


Fl= 


公式 (2) 


组 专家 、 北 京 朝阳 医院 副 院 长 童 朝晖 接受 央视 访问 时 表示 ， 一 般 两 次 核酸 检测 都 为 阴性 ， 且 肺 部 病变 吸收 较 好 的 病 患 才 会 出 院 


到 新 冠 肺炎 患者 治 访 出 院 
午 10 点 45 分 ， .在 东明 县 人 民 医 院 接受 治疗 | 的 东明 首 例 新 型 冠状 病毒 感染 的 肺炎 患者 出 院 
先生 老家 


圈 人 
区 除了 大 家 熟知 的 李 文 亮 医 生 ， 还 有 很 多 人 情 必 在 工作 岗位 上 


丽 进 了 日 内 瓦 的 | 组 织 总 部 
人 


武 党 生字 文帝 因 新 避 有 光 遍 折 


损 2 者 4 和 . eR 肖 息 源 了 解 到 ， 武 汉 市 中 心 医院 医生 李 文 高 因 新 冠 病毒 感染 的 肺炎 于 当日 病逝 
日 0 一 24 时 ，31 个 省 (自治 区 、 直 辖 市 ) 和 新 疆 生 产 建设 兵团 报告 新 增 确诊 病例 2048 例 

湖 例 降 至 三 位 数 

湖北 新 提 确 诊 病例 349 例 


| dt 强烈 建议 全 中 国人 民 都 在 家 过 春节 ， 不 要 走 亲 访 友 
月 23 自 9-18 时 ， 江 苏 省 报告 新 型 冠状 ; 病 雪 感人 的 肺炎 新 增 确认 病例 4 例 

2 入 性 新 型 冠状 病毒 感染 的 肺炎 确 疹 病例 
在 请 战 书 上 按 下 红 手 印 


呼吁 : 解决 疫情 最 快 ， 人 这 样 对 全 国 经 济 影响 最 小 ， 对 生命 健康 最 有 利 


毒 肺炎 疫情 ? 怜 取 微 博 平台 相关 数据 ,并 对 数据 进行 清 
洗 和 预 处 理 , 形 成 3 份 不 同 的 网 络 与 情 语 料 文档 D,、 
D,.D;。 其 中 ,文档 D, 用 以 构造 事件 句法 特征 库 ,文档 
刀 用 以 计算 事件 识别 模型 在 新 型 冠状 病毒 肺炎 疫情 
事例 下 的 相似 度 阔 值 c ,文档 D; 用 以 检验 事件 识别 模 
型 从 未 知 文本 中 识别 新 事件 的 能 力 。 0 
同 ,对 文档 D, .D, 进行 事件 语义 标注 ,对 D, 文档 进 
重复 分 句 操 作 。 文 档 D, 经 过 事件 语 We 
1 353 个 事件 ,再 通过 句法 特征 提取 , 共 构 造 了 包含 
1 328 条 有 效 句 法 的 事件 句法 特征 库 , 每 一 条 句法 代表 
着 一 个 事件 在 句法 逻辑 层面 的 特征 。 

文档 D, 经 过 事件 语义 标注 后 获得 的 事件 以 及 对 
应 的 事件 句法 特征 库 如 图 3 所 示 : 


jn 
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型 肺炎 患者 被 成 功 救治 

常 驻 起 浸 的 患者 ， 已 经 发 热 到 38*C 以 上 ， 还 执意 在 一 天 后 回 到 江苏 

《 型 冠状 病毒 感染 的 肺炎 诊疗 方案 (试行 第 一 版) 》 发布 新 冠状 病毒 肺炎 中 医 预 防 方案 
旺 《湖北 省 新 型 冠状 病毒 感染 的 肺炎 诊疗 方案 (试行 第 一 版 ) 》 发 布 

午 举行 的 国务 院 联防 联 控 机 制 召开 新 闻 发 布 会 上 ， 国 家 卫 健 委 新 闻 发 言 人 米 锋 介 绍 ， 与 高 点 相 比 ，2 月 17 日 ， 单 日 新 增 确诊 病例 首次 降 至 2000 例 以 内 n-v-n-b-v-n-v-n 

鸣 铁 专列 运送 医疗 队 援 邮 
还 有 队 医 护 人 员 通 过 铁路 驰援 武汉 
厅 运 -20 等 8 架 运输 机 再 飞 武汉 
2 计 声 目 % 国 务 院 联防 联 控 机 制 新 闻 发 布 会 召开 
罗 院 举行 联防 联 控 机 制 发 布 会 
新 介绍 新 型 冠状 病毒 感染 的 肺炎 统一 称谓 为 “新 型 冠状 病毒 肺炎 ”， 简 称 “ 新 冠 肺炎 ” 


2 很 多 “小 汤山 ”医院 正在 建设 
TE leet te 决定 将 新 型 冠状 病毒 感染 的 肺炎 
俄罗斯 紧急 事务 部 为 中 的 和 于 半 防 的 物 交 有 的 机 RE 运 抵 莫斯科 
俄 方 称 ， 这 批 物资 一 ee 总 重量 约 
今天 (2 月 18 日 ) 放 新 加 站 生 失策 9 声 新 闻 仙人 在 广州 迪生 
钟南山 参加 广东 疫情 发 布 会 
广东 抗击 肺炎 疫情 
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3 ”文档 D, 所 标注 事件 和 对 应 事件 句法 特征 库 


文档 D, 经 过 事件 语义 标注 后 得 到 65 个 事件 和 54 
个 非 事件 ,通过 句法 特征 提取 方法 获取 119 条 句法 ,这 
些 句 法 用 来 确定 模型 相似 度 阔 值 w。 文 档 D, 经 过 事 
件 语义 标注 后 获得 的 事件 和 非 事件 以 及 对 应 的 语句 句 
法 特征 见 图 4。 

ee WM Me th 
达 的 待 测 文档 ,对 语句 集合 进行 相应 的 句法 特征 提取 
ee 
对 应 的 句法 特征 见 图 5。 

5.2 ”新 型 冠状 病毒 肺炎 疫情 事件 识别 结果 展示 与 分 析 

为 确定 最 优 相似 度 阔 值 a 的 取 值 ,首先 通过 网 络 


与 情 突 发 事件 识别 模型 依次 将 文档 D, 所 标注 的 事件 
和 非 事件 句法 与 事件 句法 特征 库 中 的 事件 句法 进行 相 
似 度 计算 ,获得 文档 D, 中 所 有 事件 与 非 事件 的 句法 相 
似 度 ; 接 着 将 相似 度 阔 值 a 按照 0. 01 的 步 长 在 区 间 
[0,1] 中 依次 取 值 ,直至 获得 使 模型 Fl 值 最 优 的 ac 取 
值 ;最 终 实 验 结果 如 表 1 所 示 ,相似 度 冰 值 a 在 [ 0. 89， 
1 ] 的 范围 内 就 能 得 到 模型 的 最 优 结果 。 通 过 对 比 在 不 
同 a 取 值 下 的 P 值 \R 值 .让 值 走势 图 ( 见 图 6), 可 以 
确定 事件 识别 模型 在 新 型 冠状 病毒 肺炎 疫情 中 的 最 优 
相似 度 值 为 0.93 ,此 时 对 应 文档 D, 实验 结果 的 Fl 值 


为 0.786\P 值 达到 0.713.\R 值 0.877。 
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等 . 融合 句法 特征 和 句法 相似 度 的 网 络 与 情 突 发 事件 识别 [方法 研 完 [ 国语 访 合 人 区 乔 


陈 健 瑶 ， 程 姗 姗 ， 夏 立新 ， 

(9) :41 -50. 
广西 新 增 新 冠 肺炎 确诊 病例 8 例 n-v-n-v-n-m-v 
2020 年 1 月 23 日 0 一 24 时 ， 广 西 报告 新 型 冠状 病毒 感染 的 肺炎 新 增 确诊 病例 8 例 m-x-m-n-x-n-b-|-v-u-n-v-n-m-v 
百色 确认 首 例 新 型 冠状 病毒 病例 n-v-n-b-l-n 
科比 去 世 j-v 
2020 年 过 去 还 不 到 一 个 月 m-t-d-v-m 
全 州 女孩 大 半夜 冲浪 n-t-v 
我 南宁 的 号 都 收 到 了 短信 r-n-u-q-d-v-u-n 
广西 启动 一 级 响应 n-v-m-v 
北海 爆料 n-v 


人 3V1 


chinaXiv 


百分比 /% 


北海 市 新 增 新 型 冠状 病毒 感染 的 肺炎 确诊 3 例 病例 情况 公布 
其 中 北海 市 新 增 新 型 冠状 病毒 感染 的 肺炎 确诊 病例 3 例 


患者 韩 某 ，1 月 18 日 到 达 北 海 

患者 韩 某 ，19 日 出 现 发 热 、 乏 力 等 症状 

我 妈妈 前 两 天 陪 我 姥姥 去 医院 

她 姐姐 的 老板 带 着 她 女儿 从 武汉 回 南宁 了 

河池 爆料 

广西 确诊 新 型 肺炎 病例 

河池 市 首 例 新 型 冠状 病毒 感染 的 肺炎 病例 情况 公布 


1 月 24 日 凌晨 ， 河 池 市 首 例 疑 似 新 型 冠状 病毒 感染 的 肺炎 病例 确诊 
患者 李 某 ，2020 年 1 月 13 日 至 1 月 17 日 在 武汉 某 医院 进行 软件 开发 和 维护 工作 


我 现在 连 出 门 多 狗 都 得 带 个 口罩 


不 少 武汉 逃离 到 桂林 的 武汉 人 住 着 民宿 ， 有 逛 着 景区 ， 
北京 市 卫 健 委 新 闻 发 言 人 高 小 俊 介绍 ， 截 至 2020 年 2 月 14 日 24 时 ， 北 京 市 20 家 定点 医院 中 医药 参与 救治 率 为 90% 


过 着 大 年 


国家 中 医药 管理 局 医疗 救治 专家 组 组 长 、 中 国 工程 院 院士 、 中 国 中 医科 学 院 院 长 黄 璐 琦 表示 ， 


湖北 地 区 一 半 以 上 的 确诊 病例 都 使 用 中 医药 治疗 
去 年 我 因为 吃 感冒 药 过 敏 

去 年 我 得 了 荨 麻疹 

后 来 ， 我 去 中 医院 

今天 晚上 七 政 四 余 高 级 班 讲解 健康 问题 

新 闻 称 北京 20 家 定点 医院 中 医药 参与 救治 率 90% 


中 国 疾病 预防 控制 中 心 新 型 冠状 病毒 肺炎 应 急 响 应 流行 病 学 组 
中 国 疾病 预防 控制 中 心 分 析 7 万 多 名 疑似 和 确诊 患者 
中 国 疾病 预防 控制 中 心 发 现 COVID-19 患 者 中 约 80.9?6 为 轻 中 症 患者 


目前 湖北 地 区 确诊 病例 中 医药 参与 率 759%0 以 上 


n-v-b-|-v-u-n-v-n-v 
r-n-v-b-l-v-u-n-v-n 

n-x-m-v-n 

n-x-m-v-x-a-u-n 

rn-i-v-rn-v-n 
rn-u-n-v-u-r-n-p-n-v-n-u 

n-v 

n-v-b-n 

n-b-l-v-u-n-v 
m-t-x-n-v-b-l-v-u-n-v 
n-x-m-p-m-p-n-r-n-Vv-|-c-V 
r-t-n-v-d-u-v-q-n 
d-n-v-n-u-n-v-u-n-x-v-u-n-x-u-m 
n-|-n-v-x-v-m-n-x-n-m-n-v-m-Xx 
n-v-n-v-x-n-x-n-j-n-v-x-t-n-v-n-m-x-f 
n-m-f-u-v-n-d-v-n-v 

t-r-c-v-n 

t-r-v-n 

t-x-r-v-n 

t-n-m-n-v-a-n 
n-v-n-m-n-v-m-x 
n-v-|-b-|-n-v-n-zg 
n-v-|-v-x-m-v-c-v-n 
n-v-|-v-eng-x-m-n-m-x-p-a-n 


武汉 20 位 康复 医护 人 员 捐 血浆 n-m-v-n-v-n 
最 近 中 医 引起 了 很 多 争论 f-j-v-u-m-v 
4 文档 ,所 标注 事件 与 非 事件 和 对 应 语句 句法 
全 没有 之 一 Fr-v-n-d-v-u-n-x-v-r 
> 一 ee 
大 水 里 才 有 大 鱼 n-f-d-v-n 
ss 攻 f-m-r-d-a-v 
m-d-x 
i n 
临床 一 共 三 期 v-j-t 
; 参与 YM 研发 的 公司 进度 汇总 ，A 股 受益 公司 n-m-x-v-eng-j-u-n-d-n-x-n-v-n 
访 n-m 
参与 YM 研发 的 公司 进度 汇总 v-eng-j-u-n-d-n 
A 股 受益 公司 n-v-n 


4 月 9 号 查 到 的 信息 一 一 2 期 临床 试验 已 处 于 预 注册 状态 ， 也 就 是 说 特 事 特 办 以 及 紧急 状态 时 使 用 


4 月 9 号 查 到 的 信息 一 一 2 期 临床 试验 已 处 于 预 注册 状态 
也 就 是 说 特 事 特 办 以 及 紧急 状态 时 使 用 

国际 劳工 组 织 : 新 冠 疫 情 已 影响 全 球 超 八 成 劳动 人 口 
国际 劳工 组 织 

新 冠 疫情 已 影响 全 球 超 八 成 劳动 人 口 


国际 劳工 组 织 7 日 发 布 的 报告 显示 ， 在 全 球 33 亿 劳动 人 口中 ， 已 有 81% 受 到 震 F 冠 肺炎 # 疫情 影响 ， 其 工作 场所 被 全 部 或 部 分 关闭 


国际 劳工 组 织 7 日 发 布 的 报告 显示 
在 全 球 33 亿 劳动 人 口中 

已 有 81% 受 到 # 新 冠 肺炎 # 疫情 影响 
其 工作 场所 被 全 部 或 部 分 关闭 


在 全 球 33 亿 劳动 人 口中 ， 已 有 81% 受 到 # 新 冠 肺炎 # 疫情 影响 ， 其 工作 场所 被 全 部 或 部 分 关闭 
已 有 81% 受 到 # 新 冠 肺炎 # 疫情 影响 ， 其 工作 场所 被 全 部 或 部 分 关闭 

报告 预测 ， 疫 情 将 使 今年 第 二 季度 全 球 劳动 人 口 总 工时 缩减 6.7%， 相 当 于 1.95 亿 名 全 职 雇员 失业 
疫情 将 使 今年 第 二 季度 全 球 劳动 人 口 总 工时 缩减 6.7%， 相 当 于 1.95 亿 名 全 职 雇员 失业 


报告 预测 

疫情 将 使 今年 第 二 季度 全 球 劳动 人 口 总 工时 缩减 6.7% 
相当 于 1.95 亿 名 全 职 雇员 失业 

新 华 网 

工人 日 报 的 微 博 投票 


早 ，# 新 冠 肺炎 # 疫 情 下 ， 易 北 爱 乐 乐团 演奏 的 布 拉 姆 斯 第 一 ， 在 这 个 艰难 的 时 刻 向 大 家 传递 勇气 和 力量 


# 新 冠 肺炎 # 设 情 下 ， 易 北 爱 乐 乐团 演奏 的 布 拉 姆 斯 第 一 ， 


在 这 个 艰难 的 时 刻 向 大 家 传递 勇气 和 力量 


i 在 这 个 艰难 的 时 刻 向 大 家 传递 勇气 和 力量 


# 新 冠 肺炎 # 疫 情 下 
易 北 爱 乐 乐团 演奏 的 布 拉 姆 斯 第 一 
在 这 个 艰难 的 时 刻 向 大 家 传递 勇气 和 力量 


再 大 风雨 只 要 有 家 都 可 以 安然 度 过 ， 风 雨 之 后 一 定 会 再 现 彩虹 


再 大 风雨 只 要 有 家 都 可 以 安然 度 过 


0.93 


0.95 
相似 度 阔 值 
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图 5 文档 D, 分 句 结果 和 对 应 语句 句法 


0.97 


6 了 值 .R 值 Fl 值 走 势 


通过 文档 D, 确定 了 模型 在 新 型 冠状 病毒 肺炎 疫 
情 下 的 最 优 相 似 度 阔 值 a 为 0.93, 接 下 来 模型 以 相似 
度 阔 值 为 0.93 的 情况 对 文档 D; 进行 事件 识别 ,最 终 


从 文档 D; 识别 出 160 个 事件 .30 个 非 事件 ,部 分 事件 
只 别 结果 见 表 2。 事 件 识别 模型 在 文档 D; 的 Fl 值 达 


到 了 0.848 ,P 值 达到 了 0.769 ,R 值 达到 了 0. 946 ,结果 
见 表 3。 
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表 1 不 同 阐 值 对 应 的 P 值 .R 值 .Fl 值 
相似 度 阔 值 P 值 R 值 Fl 值 
1 0.875 0.323 0.472 
0.99 0. 846 0.338 0.484 
0.98 0.865 0.492 0.627 
0.97 0. 809 0.585 0.679 
0.96 0.780 0.708 0.742 
0. 95 0.766 0.754 0.760 
0.94 0.720 0.831 W771 
0.93 0.713 0.877 0.786 
0.92 0.699 0.892 0.784 
0.91 0.682 0.892 0.773 
0.90 0.682 0.892 0.773 
0.89 0.660 0.892 0.758 


1 


表 2 从 文档 D, 中 识别 事件 结果 (部 分 ) 


避 
和 
-二 


识别 9 


排查 发 现 、1 例 为 医疗 机 构 发 热门 诊 排查 发 现 ) 
参与 YM 研发 的 公司 进度 汇总 

讲述 了 国家 /个 人 应 对 危机 的 12 个 步 又 

4 月 9 号 查 到 的 信息 一 一 2 期 临床 试验 已 处 于 预 注 


国际 劳工 组 织 :新 冠 疫 情 已 影响 全 球 超 八成 劳动 人 口 


国内 共有 111 例 硝 白 冠 # 肺炎 治愈 后 复发 的 病例 
“ 州 一 美食 店 隐瞒 客人 堂 食 多 人 确诊 


202304.00613 


Ro 


Iv 


报告 预测 


状态 ,也 就 是 说 特 事 特 办 以 及 紧急 状态 时 使 用 
局 韩国 中 央 防 疫 对 策 本 部 12 日 消息 ,截至 当天 0 时 ,国内 共有 111 例 # 新 冠 # 肺炎 治愈 后 复发 的 病例 


在 全 球 33 亿 劳 动人 口中 ,已 有 81% 受 到 # 新 冠 肺 炎 # 疫情 影响 ,其 了 
已 有 81% 受 到 # 新 冠 肺炎 # 疫情 影响 ,其 工作 场所 被 全 部 或 部 分 关闭 
,疫情 将 使 今年 第 二 季度 全 球 劳动 人 口 总 工时 缩减 6.7% ,相当 于 1.95 亿 名 全 职 雇员 失业 


4 月 10 日 0 时 至 24 时 ,广州 市 报告 新 增 确诊 病例 4 例 ,其 中 境外 输入 病例 1 例 ( 入境 口岸 排查 发 现 ) ,境外 输入 关联 病例 3 例 (2 例 为 密切 接触 者 


织 7 日 发 布 的 报告 显示 ,在 全 球 33 亿 劳 动人 口中 ,已 有 81% 受到 # 新 冠 肺炎 # 疫情 影响 ,其 工作 场所 被 全 部 或 部 分 关闭 


[ 作 场 所 被 全 部 或 部 分 关闭 


inaX 


mn 
Dy 


剑桥 大 学 看 
工业 化 国家 平均 税率 是 22.5% , 川 普 大 手笔 减 税 将 大 幅 降低 其 国 


ch 


究 显示 ,意大利 疫情 可 能 与 德国 .新 加 坡 有 关 , 新 冠 根源 病毒 在 来 自 美国 澳洲 的 病例 中 大 量 出 现 , 在 武汉 并 不 常见 
内 企业 经 营 成 本 ,刺激 信贷 市 场 的 繁荣 ,吸引 制造 业 和 资本 回流 美国 


16 吉林 省 公布 新 增 1 例 境外 输入 确诊 病例 
17 为 防 控 疫情 泰国 曼谷 宣布 暂时 禁酒 


然而 # 新 冠 肺炎 # 黑 天 鹅 考验 各 国 基 础 建设 与 管理 能 力 ,如今 美 元 贬值 压力 远 高 于 往 萌 , 证 明 人 算 不 如 天 算 


18 欧盟 成 员 国 财 长 会 议 4 月 9 日 达成 协议 ,将 实施 总 额 为 5400 亿 欧 元 的 大 规模 救助 计划 


19 吉林 一 输入 病例 四 次 核酸 检测 均 为 阴性 
20 该 确诊 病例 为 吉林 市 人 ,3 月 16 日 从 泰国 曼谷 飞 抵 广州 


表 3 事件 识别 模型 在 文档 D; 中 实验 结果 


P 值 R 值 
Ds 0.769 0. 946 


Fl 值 
0.848 


5.3 方法 测评 

笔者 所 提出 的 网 络 与 情 突 发 事件 识别 模型 主要 创 
新 点 在 于 以 句法 特征 来 代替 文本 特征 ,以 此 来 解决 事 
件 识别 所 面临 的 网 络 与 情 突 发 事件 初期 语 料 文本 短 
缺 . 训 练 集 不 足 的 问题 ,有 效 降 低 了 事件 识别 的 维度 ， 
并 且 在 模型 中 以 “ 相 邻 相同 词性 合并 ”的 方式 再 次 减 


少 了 句法 宛 余 情况 。 为 验证 在 以 上 两 个 方面 所 做 出 创 
新 的 有 效 性 ,笔者 选用 相 邻 相同 词性 不 合并 的 网 络 与 
情 突 发 事件 识别 模型 和 基于 文本 相似 度 的 事件 识别 方 
法 作为 对 照 进 行 比较 。 基 于 文本 相似 度 的 事件 识别 方 
法 通过 文本 分 词 后 构造 中 文 文本 向 量 进行 相似 度 计 
算 , 该 对 照 组 除 不 使 用 句法 特征 表示 事件 特征 外 ,其 余 
计算 步骤 与 笔者 所 提出 的 网 络 与 情 突 发 事件 识别 模型 
步骤 保持 一 致 ,3 种 方法 均 使 用 文档 D, 作为 测试 集 进 
行 试验 。 

在 使 用 相同 的 训练 集 和 测试 集 的 情况 下 ,3 种 事 
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(9):41 =50. 


oH 
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件 识 别 方法 实验 结果 如 表 4 所 示 , 其 中 笔者 所 提出 的 
网 络 熏 情 突 发 事件 识别 模型 表现 最 优 ,FIl 能 够 达到 
0.786 ,证 明 模 型 使 用 句法 表示 事件 特征 的 合理 性 以 及 
采用 “相同 相 邻 词性 合并 ”的 有 效 性 。 根 据 实验 结果 
绘制 出 在 相似 度 闷 值 a 不 同 取 值 情况 下 3 种 不 同事 件 
识别 方法 结果 的 比较 ,结果 如 图 7 所 示 。 通 过 图 7 可 
以 看 出 在 这 3 种 方法 中 ,基于 文本 相似 度 的 事件 识别 方 
法 实验 结果 最 差 , 最 优 Fl 值 也 只 有 0. 657 ,造成 这 种 较 
差 实 验 结果 的 主要 原因 是 因为 训练 集 规模 不 大 ,所 使 用 
的 训练 集 一 共 只 包含 1 353 个 事件 , 相 较 于 传统 的 中 文 
文本 训练 集 ,笔者 所 使 用 的 训练 集 规模 较 小 ,但 这 也 从 
男 一 个 方面 证 明了 在 训练 集 规 模 较 小 的 情况 下 ,笔者 所 


一 入 


5S T=0.63 
S i F165.7% 
aa 
四 让 一 一 本 文 模型 
已 本 文 模型 (不 合并 
. ,| 一 一 xp 
名 0.45 0.55 0.65 
CO 
CN 
© 
6GQN 结 论 与 讨论 
> 


-三面 对 网 络 与 情 突 发 事件 ,从 社交 媒体 中 快速 准确 
坟 别 出 能 够 反映 网 络 奥 情 态度 的 事件 ,对 政府 生 情 
管理 和 相关 部 门 决策 部 署 有 着 很 重要 的 意义 。 笔 者 从 
文 洒 句法 特征 视角 出 发 ,认为 事件 句法 特征 能 够 代 痊 
文 挫 特征 表示 事件 ,以 此 作为 识别 网 络 与 情 突 发 事件 
的 一 个 突破 口 ,并 在 此 基础 上 提出 了 融合 句法 特征 和 
句法 相似 度 的 网 络 与 情 突 发 事件 识别 方法 。 相 较 于 文 
本 特征 ,句法 特征 能 够 有 效 的 降低 中 文 文本 维度 ,将 由 
数 以 万 计 的 汉字 所 构成 的 语句 降 维 为 由 数 十 个 词性 所 
构成 的 句法 ,大 大 降低 了 向 量 维度 ,并 在 此 基础 上 将 句 
法 中 相 邻 相同 词性 合并 ,再 次 降低 了 句法 的 种 类 。 因 
此 ,即使 在 训练 集 语 料 规 模 较 小 的 情况 下 ,模型 仍 能 表 
现 出 较 好 的 事件 识别 结 

在 以 新 型 冠状 病毒 肺炎 疫情 为 例 的 网 络 与 情 突 发 
事件 中 ,笔者 所 提出 的 网 络 与 情 突 发 事件 识别 模型 在 
最 优 相似 度 阔 值 为 0.93 的 情况 下 ,从 一 段 待 测 文本 中 
识别 出 事件 和 非 事件 ,F1 值 达 到 了 0. 848 。 在 使 用 相 
同 的 训练 集 和 测试 集 的 情况 下 ,笔者 所 提出 的 方法 优 
于 相 邻 相同 词性 不 合并 的 网 络 与 情 突 发 事件 识别 模型 
和 基于 文本 相似 度 的 事件 识别 方法 ,证 明了 在 训练 集 


0.75 0.85 0.95 


提出 的 网 络 与 情 突 发 事件 识别 模型 的 优越 性 ;同时 ,网 
络 与 情 突 发 事件 识别 模型 在 同等 情况 下 实验 结果 优 于 
相 邻 相同 词性 不 合并 的 网 络 与 情 突 发 事件 识别 模型 , 造 
成 这 种 现象 的 主要 原因 在 于 网 络 和 与 情 突 发 事件 识别 模 
型 合并 相同 词性 后 ,降低 了 句法 向 量 的 维度 ,减少 了 
词性 元 余 造 成 的 不 必要 计算 ,从 而 提升 了 模型 Fl 值 。 
表 4 3 种 不 同事 件 识别 方法 的 实验 结果 

事件 识别 方法 最 优 相似 度 了 及 Fl 
网 络 熏 情 突 发 事件 识别 模型 0.93 0.713 0.877 0.786 


相 邻 相同 词性 不 合并 的 网 络 和 与 0.86 0.617 0.892 0.730 
情 突 发 事件 识别 模型 
基于 文本 相似 度 的 识别 方法 0.63 0.613 0.708 0.657 


T=0.93 
Fl1=78.6% 


T=0.86 
F1=73.0% 


相似 度 赋值 


图 7 3 种 不 同事 件 识 别 方法 的 比较 


语 料 规模 较 小 的 情况 下 ,使 用 句法 相似 度 进行 事件 识 
别 要 优 于 使 用 文本 相似 度 , 同 时 也 证 明了 笔者 采用 相 
同 相 邻 词 性 合并 策略 的 合理 性 ,为 网 络 僵 情 突 发 事件 
识别 提供 了 一 种 新 的 思路 。 
从 社交 媒体 文本 中 识别 网 络 与 情 突 发 事件 ,对 于 
网 络 与 情 特 征 分 析 和 演化 分 析 有 着 十 分 重要 的 意义 。 
在 后 期 的 研究 中 ,笔者 将 利用 本 研究 所 提出 的 网 络 熏 
情 突 发 事件 识别 方法 识别 网 络 与 情 所 包含 的 未 知事 
件 ,并 基于 所 识别 的 事件 对 网 络 与 情 进 行进 一 步 的 分 
析 和 研究 。 
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Research on Network Public Opinion Emergency Recognition Method Based 


on Syntactic Features and Syntactic Similarity 
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Abstract: | Purpose/significance | This study aims to identify events from the text of sudden network public o- 


pinion quickly and accurately. | Method/process | This paper proposed a method to identify network public opinion 


emergencies by integrating syntactic features and syntactic similarity. An event oriented syntactic feature extraction 


method was proposed based on syntactic features. Event syntactic feature database was constructed by using event se- 


mantic annotation and syntactic feature extraction methods. The network public opinion emergencies were identified 


by calculating the syntactic similarity between the text to be tested and the syntax database. | Result/conclusion | 


Taking the novel coronavirus pneumonia epidemic as an example, the optimal similarity of the network public opinion 


emergency identification method proposed by the author is 0.93 in this public opinion. 160 events and 30 non events 


are identified from a new text under this similarity ，and the Fl value reaches 0. 848. Through the method evaluation ， 


it is proved that the proposed method is effective in using syntactic similarity to identify events and merge the same 


adjacent parts of speech. 
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